Pixtral 12B, le premier modèle multimodal de Mistral

Mistral rend disponible via un torrent Pixtral 12B, son premier modèle multimodal qui peut traiter des textes comme des images. L'entreprise a fait son annonce via un simple tweet incluant le lien magnet du torrent.

Elle donne un peu plus d'informations sur son compte GitHub sur lequel elle clame « vous pouvez désormais insérer des images et des URL dans le message de l'utilisateur en plus du texte ».

Vaibhav Srivastav, de Hugging Face, détaille sur X un peu plus les caractéristiques de Pixtral 12B. Entre autres, la structure du modèle concernant le texte reprend celle du modèle Mistral Nemo 12B auquel est ajouté un adaptateur de vision de 400M, la taille des images peut atteindre 1024 x 1024 pixels et les poids du modèle sont partagés sur Hugging Face.

Mistral ne communique pas clairement sur la licence choisie pour l'utilisation de ce modèle.

Selon Sophia Yang, qui travaille chez Mistral, le modèle devrait être disponible bientôt sur la plateforme de l'entreprise et dans la liste de modèles utilisables via son chatbot.

Commentaires (4)


Je ne peux pas télécharger le torrent. Quelqu'un peut m'indiquer ce qu'il y a dedans svp ?
je télécharge pas car inutile pour moi, mais t'a un dossier contenant:
- consolidated.safetensors (23.62Gio)
- params.json (453o)
- RELEASE (10.2kio)
- tekken.json (18.3Mio)
Ca se positionne en face des modèles VISION de OpenAI / MS ?
Ma première pensée à la lecture du titre: tiens un nouveau smartphone modulaire. Raté :mdr:
Fermer